Projet Chamois / Master 2 ECOMONT
Ce projet est réalisé dans le cadre du Master 2 ECOMONT et porte sur l’étude statistique de la fécondité d’une population de femelles chamois.
1 Chargement des librairies
library(tidyverse)
library(corrplot)
library(lmerTest)
library(ade4)
library(splines)
library(plotly)
library(DT)
library(Hmisc)
library(kableExtra)
library(knitr)
library(MASS)2 Import et description du jeu de données
2.1 Import des données
Tableau 1: Affichage du jeu de données.
2.2 Description des données
Le jeu de données, auquel ont été retirées les observations
aberrantes (cf 2.2.2), est constitué de 7 variables et 1219
observations.
Chaque observation correspond à l’information de
fécondité associée à une femelle chamois et relative à une année donnée.
Le jeu de données résume les suivis réalisés entre 1992 et 2017 sur 26
années.
D’après l’histogramme présentant le nombre d’individus
suivis chaque année (cf 2.2.3), les années entre 2005 et 2007 sont les
années pour lesquelles le nombre de chamois suivis a été le plus
important, atteignant 97 individus en 2007. 208 femelles chamois ont été
suivies au total. Le nombre d’années de suivi varie selon les femelles
entre 1 et 16 années (cf histogramme nombre d’années de suivi
2.2.4).
2.2.1 Résumé des données
## 'data.frame': 1328 obs. of 7 variables:
## $ id : Factor w/ 217 levels "101","105","106",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ year : int 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 ...
## $ fec : int 1 1 1 1 1 1 1 0 0 0 ...
## $ coh : int 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 ...
## $ anmark: int 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ...
## $ pds : num NA NA NA NA NA NA NA NA NA NA ...
## $ ydth : int 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 ...
## cham
##
## 7 Variables 1328 Observations
## --------------------------------------------------------------------------------
## id
## n missing distinct
## 1328 0 217
##
## lowest : 101 105 106 107 108, highest: 82 87 9 93 R1
## --------------------------------------------------------------------------------
## year
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 27 0.998 2006 6.831 1995 1997
## .25 .50 .75 .90 .95
## 2001 2006 2010 2014 2015
##
## lowest : 1991 1992 1993 1994 1995, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec
## n missing distinct Info Sum Mean Gmd
## 1328 0 2 0.716 806 0.6069 0.4775
##
## --------------------------------------------------------------------------------
## coh
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 33 0.997 1996 7.75 1985 1987
## .25 .50 .75 .90 .95
## 1991 1997 2001 2005 2007
##
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark
## n missing distinct Info Mean Gmd .05 .10
## 1328 0 24 0.996 2002 6.288 1993 1994
## .25 .50 .75 .90 .95
## 1998 2002 2006 2009 2011
##
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds
## n missing distinct Info Mean Gmd .05 .10
## 1100 228 92 0.999 19.89 5.25 11.5 12.0
## .25 .50 .75 .90 .95
## 16.9 21.1 23.3 25.0 26.0
##
## lowest : 7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth
## n missing distinct Info Mean Gmd .05 .10
## 920 408 22 0.977 2006 4.908 1998 2000
## .25 .50 .75 .90 .95
## 2003 2007 2008 2012 2014
##
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------
2.2.2 Elimination des données aberrantes
Les chamois observés après leur mort ou avant leur naissance sont retirés du jeu de données. De même, les observations réalisées avant l’année de marquage sont supprimées.
cham <- cham %>%
filter(year<=ydth | is.na(cham$ydth)) %>%
filter(year>=coh)%>%
filter(anmark>=coh)%>%
filter(anmark <= year)Seulement 1219 observations sont conservées après ce premier tri.
2.2.3 Histogramme nombre d’individus par année
Figure 1 : Nombre de femelles chamois suivies chaque année.
2.2.4 Histogramme nombre d’années de suivi
Figure 2: Nombre d’années de suivi des femelles.
2.3 Création des variables âge (age),longévité (long) et âge au moment du marquage (agemark)
cham2 <- cham %>%
summarise(cham, age= year-coh, long=ydth-coh, agemark=anmark-coh)3 Question 1 : Lien fécondité annuelle et âge des femelles
3.1 Représentation graphique des données
3.1.1 Représentation par classe d’âge
Figure 3: Représentation de la fécondité moyenne de la population par classe d’âge
3.1.2 Représentation sans grouper par classe d’âge
Figure 4: Fécondité annuelle des individus en fonction de l’âge
Graphiquement, une augmentation de l’âge des chamois semble engendrer une diminution de la fécondité annuelle de la population de chamois (cf figure 3). Il est important de confirmer cette tendance sans réaliser de moyenne par classe d’âge pour vérifier qu’il n’y a pas de tendances masquées par le fait de réaliser une somme des fécondités des individus. La figure 4 semble appuyer cette tendance pour les âges élevés avec un nombre plus important d’observations d’absence de mise bas (fécondité = 0) pour des âges élevés.
3.2 Analyse statistique du lien entre fécondité annuelle et âge des femelles
3.2.1 Modèles de régression linéaire généralisé avec effets aléatoires
3.2.1.1 Modèle 1 glm1
On réalise l’analyse statistique sur les données brutes et non sur
les données groupées par classe d’âge pour éviter de masquer la
variabilité de la fécondité annuelle entre individus.
Le premier
modèle appliqué est un modèle glm qui utilise la fonction de lien
binomial afin de prendre en compte le fait que la variable réponse soit
une variable binomiale.
La variable “id” est désignée comme
variable aléatoire pour tenir compte du fait que les observations sont
répétées sur les mêmes individus sur plusieurs années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1601.2 1616.5 -797.6 1595.2 1216
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8934 -1.1311 0.6397 0.7592 1.0459
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2843 0.5332
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.88399 0.17400 5.081 3.76e-07 ***
## age -0.03981 0.01688 -2.358 0.0184 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## age -0.905
Interprétation des coefficients:
L’AIC de ce modèle est de 1601. Avec ce modèle, la dispersion
calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de
surdispersion importante observée.
Pour pouvoir interpréter les
coefficients, il faut prendre en compte la fonction de lien. En
calculant l’inverse de la fonction logit, on obtient le coefficient qui
permet d’exprimer la fécondité annuelle en fonction de l’âge. Ce
coefficient = (1/exp(x)-1)*100 car l’odd-ratio est < 1. Il est 4.06%
moins vraisemblable que les chamois aient un petit lorsque leur âge
augmente d’un an (p value<0.02).
3.2.1.2 Modèle 2 glm2
On ajoute la variable “year” comme variable aléatoire au modèle glm1 pour prendre en compte le fait que les individus sont suivis sur les mêmes années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1583.0 1603.4 -787.5 1575.0 1215
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.1300 -1.0339 0.5917 0.7282 1.4224
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3172 0.5632
## year (Intercept) 0.1851 0.4303
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.97013 0.20191 4.805 1.55e-06 ***
## age -0.04340 0.01754 -2.474 0.0133 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## age -0.811
Interprétation des coefficients:
L’AIC de ce modèle est de 1583. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. En calculant l’inverse de la fonction logit, on obtient le coefficient qui permet d’exprimer la fécondité annuelle en fonction de l’âge. Il est 4.44% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).
L’AIC du modèle glm2 est < AIC du modèle glm1 donc, par la suite, les variables “year” et “id” sont conservées comme variables aléatoires.
3.2.1.3 Modèle 3 glm1q
Un modèle quadratique est testé par la suite pour prendre en compte la tendance de la ligne de régression observée sur les graphiques (via la fonction geom_smooth). Pour appuyer ce choix, sur le graphique qui représente les données groupées par âge, un modèle de type quadratique (courbe noire) est ajoutée et ce modèle semble bien ajusté aux données observées (points bleus)(cf figure 5 ci-dessous).Figure 5: Ajout du modèle quadratique aux données de fécondité moyenne observées par classe d’âge
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age + I(age^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1496.3 1521.8 -743.2 1486.3 1214
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5079 -0.8929 0.5018 0.6685 5.2068
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3540 0.5950
## year (Intercept) 0.2566 0.5066
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.005000 0.392488 -5.108 3.25e-07 ***
## age 0.690386 0.086746 7.959 1.74e-15 ***
## I(age^2) -0.037416 0.004465 -8.381 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) age
## age -0.910
## I(age^2) 0.836 -0.976
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model failed to converge with max|grad| = 0.00647378 (tol = 0.002, component 1)
## Model is nearly unidentifiable: very large eigenvalue
## - Rescale variables?
La variable âge est centrée normée car le modèle n’arrive pas à converger.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ age_scale + I(age_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1496.3 1521.8 -743.2 1486.3 1214
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5079 -0.8929 0.5018 0.6685 5.2068
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3540 0.5950
## year (Intercept) 0.2566 0.5066
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.179656 0.151563 7.783 7.07e-15 ***
## age_scale -0.006016 0.074835 -0.080 0.936
## I(age_scale^2) -0.588891 0.070277 -8.380 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) ag_scl
## age_scale 0.076
## I(ag_scl^2) -0.485 -0.113
Interprétation des coefficients:
L’AIC de ce modèle est de 1496. Avec ce modèle, la dispersion calculée est de 1.2 donc il n’y a pas de surdispersion importante observée. L’AIC de ce modèle quadratique < l’AIC des modèles glm1 et glm2 donc le modèle quadratique est plus adapté comme attendu graphiquement. Une observation des coefficients associés aux termes âge et âge^2 indique que le terme “âge” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.94) alors que la p value associée au terme “âge^2” < 0.01. La fonction carré est donc testée.
3.2.1.4 Modèle 4 glm1c
Le modèle carré est testé comme expliqué précedemment.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ I(age_scale^2) + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1494.3 1514.7 -743.2 1486.3 1215
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.5094 -0.8914 0.5025 0.6684 5.1922
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.3525 0.5937
## year (Intercept) 0.2567 0.5067
## Number of obs: 1219, groups: id, 208; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.18061 0.15108 7.814 5.53e-15 ***
## I(age_scale^2) -0.58955 0.06975 -8.452 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## I(ag_scl^2) -0.480
Interprétation des coefficients:
L’AIC de ce modèle est de 1494. Avec ce modèle, la dispersion calculée est 1.2 donc il n’y a pas de surdispersion importante observée. Le modèle étant compliqué, il est difficile d’interpréter les coefficients car il faudrait prendre en compte l’effet de lien logit, le fait que la variable “age” ait été centrée normée et le fait qu’on ait appliqué un carré à la variable explicative. Par contre, on peut conclure que la variable “age_scale^2” a un bien un effet significatif et négatif sur la fécondité annuelle des chamois comme l’indique l’odd-ratio qui est <1 (0.55).
3.2.2 Résumé des résultats
| npar | AIC | BIC | logLik | deviance | Chisq | Df | Pr(>Chisq) | |
|---|---|---|---|---|---|---|---|---|
| glm1 | 3 | 1601.182 | 1616.499 | -797.5910 | 1595.182 | NA | NA | NA |
| glm2 | 4 | 1582.963 | 1603.386 | -787.4813 | 1574.963 | 20.2192505 | 1 | 0.0000069 |
| glm1c | 4 | 1494.319 | 1514.742 | -743.1593 | 1486.319 | 88.6440167 | 0 | NA |
| glm1q | 5 | 1496.312 | 1521.841 | -743.1562 | 1486.312 | 0.0062428 | 1 | 0.9370238 |
Le modèle glm1c présente le plus faible AIC et est donc le modèle qui permet la meilleure prédiction de la fécondité annuelle à partir de la variable explicative “âge”. Quelque soient les modèles testés, la variable “âge” a un effet significatif négatif sur la fécondité annuelle des femelles chamois ce qui confirme la tendance observée graphiquement.
4 Question 2 : Variation de la fécondité annuelle en fonction du temps
4.1 Représentation graphique des données
4.1.1 Représentation graphique par année
Figure 6: Fécondité moyenne de la population en fonction des années.
4.1.2 Représentation graphique sans grouper par année
Figure 7: Fécondité annuelle en fonction des années.
Sur le graphique qui représente la fécondité moyenne par année, il
faut faire attention à la première valeur en 1992 de 1 qui est la valeur
d’un seul individu. Les années 2009 et 2013 présentent également des
fécondités moyennes très faibles en comparaison aux autres années mais
aucune tendance globale ne semble se dessiner au fil des années.
Sur les graphiques qui représentent les données annuelles, la fécondité
annuelle semble présenter une très faible diminution avec des
observations associées à l’absence de mises bas plus décalées vers les
années élevées.
Cette tendance ne semble pas significative et est
peut être due à l’augmentation de l’âge moyen de la population au fil
des années.
4.1.3 Variation de l’âge moyen des chamois en fonction des années
Figure 8: Age moyen de la population en fonction des années.
Un simple modèle linéaire est appliqué pour vérifier si l’âge moyen de la population augmente bien avec les années comme ce que laisse pressentir la figure 8.
##
## Call:
## lm(formula = agemoyen ~ year, data = cham_ans)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.91884 -0.39101 0.08584 0.36430 1.64814
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -125.08560 40.53706 -3.086 0.00506 **
## year 0.06699 0.02022 3.312 0.00292 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7734 on 24 degrees of freedom
## Multiple R-squared: 0.3137, Adjusted R-squared: 0.2851
## F-statistic: 10.97 on 1 and 24 DF, p-value: 0.002922
Le modèle linéaire semble valider toutes les hypothèses requises:
- Normalité des résidus validée
- Homoscédasticité des résidus
validée
La p value est < 0.05 donc l’effet observé est
significatif. Concernant la taille de l’effet observé, l’âge moyen de la
population augmente de 1.74 années sur les 26 années d’étude ce qui
représente une augmentation de 20% de l’âge par rapport à l’âge moyen de
la population toutes années confondues ce qui n’est pas négligeable.
La très faible tendance de diminution de la fécondité annuelle observée graphiquement au cours des années est peut être due à l’augmentation de l’âge moyen de la population.
4.2 Analyse statistique du lien entre fécondité annuelle et années
4.2.1 Modèles de régression linéaire généralisé avec effets aléatoires
Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ year + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1605.2 1620.5 -799.6 1599.2 1216
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8267 -1.1356 0.6372 0.7564 1.0624
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2899 0.5384
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 30.8524212 1.3359013 23.09 <2e-16 ***
## year -0.0151238 0.0006666 -22.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## year -0.998
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model failed to converge with max|grad| = 0.263077 (tol = 0.002, component 1)
## Model is nearly unidentifiable: very large eigenvalue
## - Rescale variables?
## Model is nearly unidentifiable: large eigenvalue ratio
## - Rescale variables?
La variable “year” est centrée normée pour que le modèle puisse converger.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ year_scale + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1605.2 1620.5 -799.6 1599.2 1216
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.8267 -1.1356 0.6372 0.7564 1.0624
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2899 0.5384
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.51559 0.07436 6.934 4.1e-12 ***
## year_scale -0.08965 0.07129 -1.257 0.209
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr)
## year_scale -0.012
Interprétation des coefficients:
L’AIC de ce modèle est de 1605. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. D’après la p-value > 0.1, il n’y a pas d’effets significatifs de la variable “year” sur la fécondité annuelle comme supposé préalablement par les représentations graphiques.
C’est donc la variable “age” qui a un impact sur la fécondité annuelle et non la variable “year”. Pour confirmer ce point, un modèle glm avec effets additifs “age” et “year” est testé.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ year_scale + age_scale + (1 | id)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1602.4 1622.8 -797.2 1594.4 1215
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.9738 -1.1235 0.6354 0.7586 1.0454
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.2823 0.5314
## Number of obs: 1219, groups: id, 208
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.51609 0.07412 6.963 3.33e-12 ***
## year_scale -0.06285 0.07181 -0.875 0.3815
## age_scale -0.14790 0.06777 -2.182 0.0291 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) yr_scl
## year_scale -0.009
## age_scale -0.016 -0.165
L’AIC de ce modèle est de 1602. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. On observe, via ce modèle, l’effet de l’âge (p value < 0.05) et l’absence d’effet des années sur la fécondité annuelle (p value > 0.1) avec un AIC plus faible.
4.2.2 Résumé des résultats
La fécondité annuelle de la population de chamois n’est donc pas impactée significativement par la variation de la taille de la population ou les conditions environnementales sur les 26 années d’étude. La population n’a donc surement pas atteint sa capacité de charge.
5 Question 3 : Lien entre fécondité totale et longévité des animaux
5.1 Représentation graphique des données
5.1.1 Représentation sans prendre en compte le nombre d’années de suivi
Les individus qui ne sont pas morts et dont on ne connait pas la longévité ne sont pas pris en compte pour cette question 3.
Figure 9: Somme des mises bas par individu en fonction de la longévité
La figure 9 ne représente pas la fécondité totale des individus (= totale des mises bas sur toute la vie d’un individu) mais seulement la somme des mises bas sur les années de suivi car les individus ne sont pas suivis toute la durée de leur vie .
5.1.2 Prise en compte du biais apporté par le nombre d’années de suivi
5.1.2.1 Présentation de la problématique rencontrée
Tous les chamois n’ont pas n’ont pas été suivis le même nombre d’année parce que la longévité varie selon les individus mais également parce que les individus n’ont pas été marqués dès la naissance.
Figure 10: Répartition de la population en fonction de l’âge de marquage
Ainsi, le nombre d’années de suivi n’est pas égal à la longévité des femelles chamois.
Figure 11: Lien entre le nombre d’années de suivi et la longévité.
Or, on s’attend à ce que le nombre d’années de suivi ait un impact
sur la somme des mises bas des chamois.
Figure 12: Somme des mises bas en fonction du nombre d’années de suivi
Comme attendu, la somme des mises bas augmente avec le nombre
d’années de suivi. Or, il est difficile de savoir si la période plus
longue de suivi est due au fait que l’individu a été marqué précocement
ou que l’individu a vécu plus longtemps.
Pour pouvoir répondre à la
question initiale, qui consiste à vérifier s’il y a un lien entre la
fécondité totale et la longévité, il faut pouvoir comparer des individus
suivis sur un maximum d’années de vie comparable entre individus.
5.1.2.2 Solutions proposées
5.1.2.2.1 Solution 1
L’une des solutions consiste à sélectionner une sous partie de la
population marquée précocement au même age pour que l’individu ait été
suivi une grande partie de sa vie.
Malheureusement, la figure 10
montre qu’il n’y a pas une année de marquage pour laquelle on obtient un
échantillon significatif de la population (n>30) pour pouvoir
réaliser une analyse statistique.
5.1.2.2.2 Solution 2
Une autre solution consiste à sélectionner une sous partie de la
population suivie sur au moins un certain pourcentage de leur vie (ratio
anneetot/longévité). La variable “year” n’a pas d’impact sur la
fécondité annuelle des chamois donc le fait que les chamois aient été
suivis pendant des périodes différentes n’engendre pas de biais
supplémentaire.
Deux sous échantillons de la population sont
sélectionnés en utilisant les arguments suivants:
-Taille
échantillon > 30 individus
-Individus au moins suivis sur 60% de
leur vie (60 et 70% de leur vie)
Figure 13: Répartition des âges de marquage des deux échantillons de population sélectionnés (ratio suivi > 70% à gauche et 60% à droite).
5.1.3 Représentation graphique des deux sous-populations
La corrélation entre la fécondité totale et la longévité est maintenant vérifiée graphiquement pour les deux sous populations sélectionnées.
Figure 14: Fécondité totale en fonction de la longévité pour les individus suivis sur 70% ou 60% de leur vie.
Une corrélation positive est observée pour les deux sous populations sélectionnées.
5.2 Analyse statistique du lien entre fécondité totale et longévité
5.2.1 Modèles de régression lineaire
5.2.1.1 Modèle appliqué à la sous population suivie plus de 70%
Un modèle linéaire est appliqué pour les individus sélectionnés en vérifiant au préalable que la fécondité totale suit une loi normale.
Figure 15: Normalité de la fécondité totale de la sous population 1.
La normalité de la variable est vérifiée donc un modèle linéaire est testé.
##
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long70)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8092 -1.0853 0.1385 1.4126 3.1908
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.5842 1.2771 -3.589 0.00103 **
## long 0.8996 0.1090 8.256 1.24e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.955 on 34 degrees of freedom
## Multiple R-squared: 0.6672, Adjusted R-squared: 0.6574
## F-statistic: 68.16 on 1 and 34 DF, p-value: 1.236e-09
L’analyse de la sortie du modèle est réalisée dans la sous-partie
“Résultats”.
5.2.1.2 Modèle appliqué à la sous population suivie plus de 60%
Un modèle linéaire est appliqué pour les individus sélectionnés en vérifiant au préalable que la fécondité totale suit une loi normale.
Figure 16: Normalité de la fécondité totale de la sous population 2.
La normalité de la variable est vérifiée donc un modèle linéaire est testé.
##
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long60)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4364 -1.2538 0.0636 1.3005 4.0243
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.12906 0.93821 -3.335 0.00161 **
## long 0.75655 0.07755 9.756 3.67e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.855 on 50 degrees of freedom
## Multiple R-squared: 0.6556, Adjusted R-squared: 0.6487
## F-statistic: 95.17 on 1 and 50 DF, p-value: 3.672e-13
L’analyse de la sortie du modèle est réalisée dans la sous-partie “Résultats”.
5.2.1.3 Résultats
Les deux modèles linéaires valident toutes les hypothèses requises:
-Normalité des résidus validée
-Homoscédasticité des résidus
validée
Le modèle appliqué aux individus suivis sur au moins 60% de leur vie
indique un effet significatif de la longévité (p value < 0.01) sur la
fécondité totale avec une augmentation de 0.76 individus par point de
longévité supplémentaire (R2>0.65).
Le modèle appliqué aux
individus suivis sur au moins 70% de leur vie indique un effet
significatif de la longévité (p value < 0.01) sur la fécondité totale
avec une augmentation de 0.90 individus par point de longévité
supplémentaire (R2>0.66).
En utilisant deux sous échantillons de
la population pour prendre en compte le fait que la plupart des
individus sont suivis sur une petite partie de leur vie seulement et
qu’il est donc difficile d’avoir accès à leur fécondité totale, on
observe un effet significatif de la variable “longévité” sur la
fécondité totale des chamois.
Ainsi, plus les chamois vivent
longtemps, plus ils ont une chance d’avoir des petits et ce malgré
l’impact de la variable “age” sur la fécondité annuelle.
6 Question 4: Lien entre fécondité annuelle et longévité des animaux
6.1 Représentation graphique des données
6.1.1 Représentation par classe de longévité
Figure 17: Représentation de la fécondité moyenne de la population par classe de longévité
6.1.2 Représentation sans grouper par classe de longévité
Figure 18: Fécondité annuelle en fonction de la longévité
Graphiquement, la longévité ne semble pas impacter la fécondité annuelle. Plus d’observations correspondant à l’absence de fécondité sont cependant observées pour des valeurs de longévité très élevées. Cette observation est peut être due au fait que, en raison de l’impact négatif de l’âge sur la fécondité annuelle, on observe plus d’observations de fécondité=0 pour des longévités élevées car les observations associées à des âges élevés et donc plutôt à des fécondités =0 sont alors plus importantes.
6.2 Analyse statistique du lien entre fécondité annuelle et longévité des femelles
6.2.1 Modèles de régression lineaire généralisé avec effets aléatoires
6.2.1.1 Premier modèle
Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. Les variables “id” et “year” sont désignées comme variables aléatoires pour tenir compte du fait que les observations sont répetées sur les mêmes individus sur plusieurs années.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ long + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1095.7 1114.6 -543.8 1087.7 827
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.9453 -1.0366 0.6092 0.7325 1.1869
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.43475 0.6594
## year (Intercept) 0.04156 0.2039
## Number of obs: 831, groups: id, 155; year, 25
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.514760 0.336411 1.530 0.126
## long -0.001207 0.024977 -0.048 0.961
##
## Correlation of Fixed Effects:
## (Intr)
## long -0.946
Interprétation des coefficients:
L’AIC de ce modèle = 1096. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. Avec ce modèle, la p value associé à l’impact de la variable “longévité” sur la fécondité annuelle est de 0.96 donc l’effet de la longévité sur la variable réponse n’est pas significatif.
6.2.1.2 Second modèle
Dans le second modèle, on ajoute la variable “age” comme variable explicative pour prendre en compte le fait que l’âge a un effet négatif sur la fécondité annuelle et peut masquer l’effet de la variable longévité.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ long + age + (1 | id) + (1 | year)
## Data: cham2
##
## AIC BIC logLik deviance df.resid
## 1074.2 1097.8 -532.1 1064.2 826
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -2.7797 -1.0072 0.5581 0.7662 1.2064
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.386743 0.62189
## year (Intercept) 0.005599 0.07483
## Number of obs: 831, groups: id, 155; year, 25
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.41539 0.32244 1.288 0.197658
## long 0.11497 0.03425 3.357 0.000789 ***
## age -0.14143 0.02970 -4.761 1.92e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Correlation of Fixed Effects:
## (Intr) long
## long -0.701
## age 0.037 -0.706
L’AIC de ce modèle est de 1074. Avec ce modèle, la dispersion calculée est de 1.3 donc il n’y a pas de surdispersion importante observée. L’AIC de ce modèle 2 < l’AIC du modèle 1 donc ce modèle permet de mieux expliquer la variance des données.
En prenant en compte l’effet additif des variables “âge” et “longévité” sur la fécondité annuelle, on obtient des effets contraires associés avec des p value < 0.01.
Il est 15.19% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.01) et il est 1.12% plus vraisemblable que les chamois aient un petit lorsque leur longévité augmente d’un an (p value<0.01). La taille de l’effet associé avec la variable “long” est faible.
6.2.2 Résumé des résultats
En prenant en compte les deux variables “âge” et “fécondité”, l’effet de la variable longévité peut être estimé plus justement: la longévité aurait un effet positif très faible mais associé à une p-value < 0.1 sur la fécondité annuelle. Ainsi, une forte valeur sélective globale permet de sélectionner les chamois qui vivent plus longtemps et qui conservent une fécondité annuelle importante et ont ainsi plus de petits au cours de leur vie (cf question 3) malgré le coût de la reproduction.
7 Question 5a: Lien entre fécondite totale et poids
7.1 Représentation graphique des données
7.1.1 Vérification de la comparabilité des poids selon les âges de capture et élimination des valeurs non comparables
Figure 19: Poids des chamois en fonction de l’âge de marquage
Les poids mesurés avant 4 ans semblent éloignés de la moyenne puis les poids se stabilisent. Afin d’étudier l’impact des poids sur la fécondité totale, les individus marqués avant 4 ans sont exclus.
7.1.2 Représentation graphique pour les individus sélectionnés
Figure 20: Fécondité totale en fonction du poids
Le graphique ci-dessous est difficilement interprétable car on se heurte une fois de plus au problème associé avec la variable “fécondité totale” qui ne correspond pas à la fécondité des individus durant toute leur vie.
Le fait d’avoir dû retirer les individus pesés avant 4 ans avec des poids peu comparables diminue la taille de la population exploitable qui présente des ratios élevés nombre années suivi/longévité.
7.1.3 Analyse statistique du lien entre fécondité totale et poids des femelles
7.1.3.1 Prise en compte du biais apporté par le nombre d’années de suivi
Figure 21: Ratio années de suivi/longévité des femelles sélectionnées.
Pour avoir un échantillon d’au moins 30 individus, il faut descendre
à un ratio années de suivi/longévité< 0.4 ce qui est beaucoup trop
faible pour avoir une représentation fiable de la fécondité totale.
Etant donné qu’on ne peut avoir accès à la variable fécondité totale
pour cette question sur un échantillon significatif, l’effet du poids
sur la fécondité totale ne peut être évalué.
7.1.3.2 Modèles de régression lineaire généralisé avec effets aléatoires
L’impact du poids sur la fécondité annuelle est tout de même testé avec un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. Les variable “id” et “year” sont utilisées comme variables aléatoires.
## Generalized linear mixed model fit by maximum likelihood (Laplace
## Approximation) [glmerMod]
## Family: binomial ( logit )
## Formula: fec ~ pds + (1 | id) + (1 | year)
## Data: cham2_tri
##
## AIC BIC logLik deviance df.resid
## 768.8 786.2 -380.4 760.8 578
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.7883 -1.1124 0.6442 0.7416 1.4241
##
## Random effects:
## Groups Name Variance Std.Dev.
## id (Intercept) 0.09131 0.3022
## year (Intercept) 0.29407 0.5423
## Number of obs: 582, groups: id, 115; year, 26
##
## Fixed effects:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.16810 1.00244 0.168 0.867
## pds 0.01829 0.04353 0.420 0.674
##
## Correlation of Fixed Effects:
## (Intr)
## pds -0.989
Interprétation des coefficients:
L’AIC de ce modèle est de 769. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. La p value associée à l’effet “poids” sur la fécondité annuelle est >0.1 et la taille de l’effet est faible (1.02% plus vraisemblable que les chamois aient un petit lorsque leur poids augmente d’un kg).
7.1.3.3 Résumé des résultats.
Le poids n’a donc pas d’impact significatif sur la fécondité annuelle des chamois.
8 Question 5b: Lien entre longévité et poids
8.1 Représentation graphique des données
8.1.1 Représentation graphique de la longévité en fonction du poids
Figure 22: Longévité des chamois en fonction du poids.
Il semble exister une relation positive entre le poids des femelles et leur longévité.
8.2 Analyse statistique du lien entre longévité et poids des femelles
8.2.1 Modèles de régression linéaire
La variable longévité semble présenter une distribution normale donc on applique un modèle linéaire lm.
##
## Call:
## lm(formula = long ~ pds, data = cham_pds)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.6973 -2.2532 0.2628 2.3085 7.7089
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.33010 1.66882 1.995 0.0482 *
## pds 0.39844 0.07789 5.116 1.19e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.475 on 121 degrees of freedom
## (50 observations effacées parce que manquantes)
## Multiple R-squared: 0.1778, Adjusted R-squared: 0.171
## F-statistic: 26.17 on 1 and 121 DF, p-value: 1.189e-06
Le modèle linéaire semble valider toutes les hypothèses requises:
-Normalité des résidus validée
-Homoscédasticité des résidus
validée
8.2.2 Résumé des résultats
D’après le résumé du modèle, la longévité augmente de 0.39 années lorsque le poids augmente d’un kg (p value < 0.01). Le poids semble donc avoir un impact sur la longévité.
9 Conclusions
L’utilisation de différents modèles nous ont permis d’étudier
l’impact de plusieurs variables sur la fécondité annuelle et totale
d’une population de chamois.
Ainsi, la fécondité annuelle des
chamois diminue avec l’âge des femelles et augmente très légèrement avec
la longévité. Le poids et les années n’ont en revanche pas d’effets
significatifs sur la fécondité annuelle. Ces observations nous
permettent de conclure que la population n’a surement pas atteint sa
capacité de charge.
La fécondité totale augmente avec la longévité.
Plus les chamois vivent longtemps, plus les femelles ont le temps
d’avoir des petits malgré la diminution de la fécondité annuelle avec
l’âge.
Des poids plus élevés sont associés à des longévités plus
élevées. Nous n’avons pas pu analyser l’impact des poids sur la
fécondité totale de par l’absence de données suffisantes.
Pour
faciliter les analyses statistiques de cette population de chamois, il
serait important de suivre les chamois dès leur plus jeune âge. De plus,
si les chamois sont marqués avant 3 ans, une mesure additionnelle de
poids après leur 4 ans permettrait d’analyser la variable poids sur des
poids stabilisés.